@施建军:基于词向量的汉日通用汉字词语义计量研究方法探索
基于词向量的汉日通用汉字词语义计量研究方法探索
一、 引言
- 核心问题: 汉日同形词存在大量“同形异义”现象,但传统研究方法难以进行大规模、可量化的语义频率统计。
- 传统研究局限:
- 手段限制: 手工统计耗时巨大、规模小、无法验证重复。
- 词典不足: 现有双语词典缺少义项的实际使用频率和跨语言分布信息。
- 研究零散: 多为面向外语教学的个案研究,缺乏系统性。
- 研究目标: 探索利用词向量技术进行汉日词汇语义计量研究的可行性。
二、 词向量及相关技术
- 核心思想: 利用上下文语境获取词义的数学表达。
- 技术演进:
- word2vec:
- 贡献: 使词向量技术走向实用。
- 缺陷:
- 上下文有限 (通常为目标词左右的几个词)。
- 静态词向量 (一个词只有一个固定的向量,无法区分多义词)。
- BERT (Bidirectional Encoder Representations from Transformers):
- 优势:
- 动态词向量: 根据不同上下文生成不同的词向量,有效解决一词多义问题。
- 上下文更广: 基于前后两个完整句子,表征能力更强。
- 应用: 为义项归纳、频率统计提供了有力工具。
- 优势:
- word2vec:
- 研究采用模型: 针对汉语和日语的特殊性,选择单语言预训练模型以获得更优性能。
- 汉语: 哈工大讯飞联合实验室 (HFL) 的 BERT-wwm-ext。
- 日语: 日本国立信息通信研究机构 (NICT) 的 NICT_BERT。
三、 实验:基于词向量的语义计量研究
-
总体思路:
- 从权威词典中归纳目标词的义项,并配上标准例句。
- 从大规模语料库中抽取含目标词的实例。
- 利用 BERT 模型提取标准例句和语料实例中目标词的词向量。
- 通过计算向量相似度,对语料实例进行语义分类和频率统计。
- 抽样进行人工核对,评估准确率。
-
研究对象: 10个高频、义项丰富的中日同形词(如:简单、深刻、问题、发展等)。
-
语料库:
- 日语: 《每日新闻》2012年全年新闻报道。
- 汉语: 《光明日报》2010年全年新闻报道。
-
技术流程:
- 义项标准向量生成:
- 提取一个义项下所有标准例句中目标词的词向量。
- 取其均值,作为该义项的“标准词向量”
。
- 语料实例向量提取:
- 提取语料库中句子内目标词的词向量
。 - 汉语: 对组成词的各“字向量”取均值。
- 日语: 直接获取分词后的“词向量”。
- 提取语料库中句子内目标词的词向量
- 语义分类与计量:
- 计算
与所有义项的标准词向量 的余弦相似度。 - 将句子归类到相似度最高的义项下。
- 分类公式:
- 计算
- 义项标准向量生成:
四、 有效性分析
-
评估方法: 随机抽取1000个实例,进行人工标注,并与机器分类结果对比。
-
准确率结果:
- 日语: 平均准确率 90%,最高达 97%。
- 汉语: 平均准确率 88.3%,最高达 97%。
- 结论: 使用 BERT 词向量进行语义计量分析是可行且有效的。
-
误差来源分析:
- 自动分词错误: 主要影响中文,错误的切分导致例句抽取错误。
- 词典义项设置问题:
- 可分性弱: 义项之间界限模糊,主观性强,导致机器和人都难以区分。
- 验证: 合并汉语“代表”的相近义项后,准确率从 61% 提升至 88%。
- 语言实例规范性问题:
- 语料实例质量: 对话、标题等不完整句子缺乏足够上下文,影响 BERT 判断。
- 词典例句质量: 部分词典例句过短(如仅3-4个字),无法为 BERT 提供充分的语境信息,导致生成的标准向量区分度不强。
五、 结语
- 核心结论:
- 证实可行性: BERT 词向量能够有效应用于中日通用汉字词的语义计量研究。
- 发现影响因素:
- 词典义项划分的科学性。
- 词典及语料库中例句的长度和规范性。
- NLP基础工具(如分词器)的准确性。
- 未来方向: 努力克服上述影响因素带来的困难,以保证研究结果的可靠性与科学性。